在本文中,我们讨论了用分层,细粒度标记标记不同类型的侵略和“上下文”的分层的多语言数据集的开发。这里,这里,这里由对话线程定义,其中发生特定的评论以及评论对先前注释执行的话语角色的“类型”。在此处讨论的初始数据集(并作为逗号@图标共享任务的一部分提供),包括四种语言的15,000名注释评论 - Meitei,Bangla,Hindi和印度英语 - 从各种社交媒体平台收集作为Youtube,Facebook,Twitter和电报。正如通常在社交媒体网站上,大量这些评论都是多语种的,主要是与英语混合的代码混合。本文给出了用于注释的标签的详细描述以及开发多标签的过程的过程,该方法可用于标记具有各种侵略和偏差的评论,包括性别偏见,宗教不宽容(称为标签中的公共偏见),类/种姓偏见和民族/种族偏见。我们还定义并讨论已用于标记通过评论执行的异常发挥作用的标记的标签,例如攻击,防御等。我们还对数据集的统计分析以及我们的基线实验的结果进行了发展使用DataSet开发的自动攻击识别系统。
translated by 谷歌翻译